Manifold Mixup: Better Representations by Interpolating Hidden States
#paper
どういうの?
無作為に選んだ層までは普通に計算して,その層の出力の複数をランダムに選んでMixup
そのままその値を使って最終層まで計算&lossを計算し, 逆伝播
決定境界が滑らかになるらしい
簡単に説明すると, まず特徴量空間上で特徴量がflattenな状態に収束していくらしい
flatten=小さい部分空間で表現できるということなので, better
MNISTでのtoy-experimentでも実際に再現されていて, 具体的には中間層の出力$ \mathrm{\bm{X}} に対して特異値分解をして, 特異値を降順に並べたとき$ [1,N)の特異値の総和がManifold Mixupのみ減少したらしい
固有値を想起するとわかりやすい→一方向にだけ引っ張られてる=flatten
内挿・外挿
https://gyazo.com/36f01950b9eaae3b6a59568568d1b5a5